標簽【model free】 - 碼上歡樂

一、問題引入回顧上篇強化學習 2 —— 用動態規划求解 MDP我們使用策略迭代和價值迭代來求解MDP問題 1、策略迭代過程： 1、評估價值 (Evaluate) \[v_{i ...